Transformers con normalización de capa aprenden el método de potencia
Transformers con normalización de capa aprenden el método de potencia por gradiente descendente, revelando un sesgo algorítmico que mejora la predicción de componentes principales.